Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
与置换不变的代理框架的合作多元化学习(MARL)在现实世界应用中取得了巨大的经验成功。不幸的是,由于许多代理商的诅咒以及对现有作品中的关系推理的有限探索,对这个MARL问题的理论理解缺乏。在本文中,我们验证了变压器是否实现了复杂的关系推理,并提出和分析了与变压器近似器的无模型和基于模型的离线MARL算法。我们证明,基于模型和基于模型的算法的次级次数差距分别与代理数量分别独立于和对数,这减轻了许多试剂的诅咒。这些结果是变压器的新概括误差结合的结果以及对变压器系统动力学的最大似然估计(MLE)的新分析。我们的基于模型的算法是第一个明确利用代理的置换不变性的可证明有效的MARL算法。
translated by 谷歌翻译
我们研究了与中央服务器和多个客户的联合学习多臂强盗设置中最佳手臂识别的问题。每个客户都与多臂强盗相关联,其中每个手臂在具有未知均值和已知方差的高斯分布之后,每个手臂都能产生{\ em I.i.d。} \奖励。假定所有客户的武器集相同。我们定义了两个最佳手臂的概念 - 本地和全球。客户的当地最好的手臂是客户本地手臂中最大的手臂,而全球最佳手臂是所有客户平均平均值最大的手臂。我们假设每个客户只能从当地的手臂上观察奖励,从而估计其当地最好的手臂。客户在上行链路上与中央服务器进行通信,该上行链路需要每个上行链路的使用费用为$ C \ ge0 $单位。在服务器上估算了全球最佳手臂。目的是确定当地最佳武器和全球最佳臂,总成本最少,定义为所有客户的ARM选择总数和总通信成本的总和,但在错误概率上取决于上限。我们提出了一种基于连续消除的新型算法{\ sc fedelim},仅在指数时间步骤中进行通信,并获得高概率依赖性实例依赖性上限,以其总成本。我们论文的关键要点是,对于任何$ c \ geq 0 $,错误概率和错误概率足够小,{\ sc fedelim}下的ARM选择总数(分别为\ the总费用)最多为〜$ 2 $(reves 。〜 $ 3 $)乘以其在每个时间步骤中通信的变体下的ARM选择总数的最大总数。此外,我们证明后者在期望最高的恒定因素方面是最佳的,从而证明{\ sc fedelim}中的通信几乎是无成本的。我们从数值验证{\ sc fedelim}的功效。
translated by 谷歌翻译
本文分析了交付功能步态结果的联合空间步行机制和冗余。分析了两名参加多因素研究并在三个课程中行走的健康男性成年人的生物力学措施。两位参与者都采用不同的人体内部和人际补偿策略(例如,拱顶,髋关节远足)跨步行条件,并表现出显着的步态模式改变,同时保持任务空间(功能)步态参数不变。他们还更喜欢各种不对称的步长,但在自由步行过程中保持了对称步长的一致性和Cadence-Invariant。结果表明,个性化方法的重要性以及需要从功能(任务空间)到关节空间步态分析的范式转变,以便在(a)典型步态和提供以人为中心的人类机器人相互作用。
translated by 谷歌翻译
这项工作系统地调查了深度图像去噪者(DIDS)的对抗性稳健性,即,可以从嘈杂的观察中恢复地面真理的噪音,因对抗性扰动而变化。首先,为了评估DIDS的稳健性,我们提出了一种新的逆势攻击,即观察到的零平均攻击({\ SC obsatk}),对给定嘈杂的图像来制作对抗零均匀扰动。我们发现现有的确实容易受到{\ SC Obsatk}产生的对抗噪声。其次,为了强化犯罪,我们提出了一种对抗性培训策略,混合对抗训练({\ SC帽}),共同列车与对抗性和非对抗性嘈杂的数据做出,以确保重建质量很高,并且围绕非对抗性数据是局部光滑的。所得到的确实可以有效去除各种类型的合成和对抗性噪声。我们还发现,DIDS的稳健性使其在看不见的真实噪音上的概括能力。实际上,{\ SC帽子} -Tromed DID可以从真实世界的噪音中恢复高质量的清洁图像,即使没有真正的嘈杂数据训练。基准数据集的广泛实验,包括SET68,PolyU和SIDD,证实了{\ SC Obsatk}和{\ SC帽}的有效性。
translated by 谷歌翻译
我们想要模型的文本单位是什么?从字节到多字表达式,可以在许多粒度下分析和生成文本。直到最近,大多数自然语言处理(NLP)模型通过单词操作,将那些作为离散和原子令牌处理,但从字节对编码(BPE)开始,基于次字的方法在许多领域都变得占主导地位,使得仍然存在小词汇表允许快速推断。是道路字符级模型的结束或字节级处理吗?在这项调查中,我们通过展示和评估基于学习分割的词语和字符以及基于子字的方法的混合方法以及基于学习的分割的杂交方法,连接多行工作。我们得出结论,对于所有应用来说,并且可能永远不会成为所有应用的银子弹奇异解决方案,并且严重思考令牌化对许多应用仍然很重要。
translated by 谷歌翻译
类增量学习(CIL)旨在以相位逐相的方式学习多级分类器,其中仅在每个阶段提供类的子集的数据。以前的作品主要专注于初始之后减轻阶段的遗忘。但是,我们发现,在初始阶段改善CIL也是一个有希望的方向。具体而言,我们通过实验表明,在初始阶段直接鼓励CIL学习者将类似的表示类似的表示,因为在所有类别上训练的模型可以大大提升CIL性能。由此激励,我们研究了NA \“IVERY训练初始阶段模型和Oracle模型之间的差异。具体来说,由于这两个模型之间的一个主要区别是培训类的数量,我们研究了这种差异如何影响模型表示。我们发现,通过较少的培训类,每个班级的数据表示位于一个漫长而狭窄的地区;通过更多的培训类,每个阶级的陈述更统一地散射。灵感来自这种观察,我们提出了课堂上的去相关性(CWD)有效地规范了每个类的表示,以更统一地散射,从而模拟与所有类联合训练的模型(即Oracle模型)。我们的CWD易于实施,易于插入现有方法。各种各样的实验基准数据集显示CWD一直在且显着提高现有最先进方法的性能约为1 \%至3 \%。代码将被释放。
translated by 谷歌翻译
在本文中,我们使用最初提出的可变长度infilling(VLI)模型进行调查,该模型最初提出缺失缺失段,以“延长”在音乐界限下的现有音乐群。具体而言,作为一个案例研究,我们将20个音乐段扩展到16个条形图到16个条形,并检查VLI模型在使用少数客观指标中保留扩展结果中的音乐界限的程度,包括我们新提出的寄存器直方图相似度。结果表明,VLI模型有可能解决扩展任务。
translated by 谷歌翻译
使用信息理论原理,我们考虑迭代半监督学习(SSL)算法的概括误差(Gen-Error),这些算法迭代地生成了大量未标记数据的伪标记,以逐步完善模型参数。与{\ em绑定} Gen-Error的大多数以前的作品相反,我们为Gen-Error提供了{\ em Exact}的表达,并将其专门为二进制高斯混合模型。我们的理论结果表明,当阶级条件差异不大时,Gen-Error随着迭代次数的数量而减少,但很快就会饱和。另一方面,如果类的条件差异(因此,类别之间的重叠量)很大,则Gen-Error随迭代次数的增加而增加。为了减轻这种不良效果,我们表明正则化可以减少Gen-Error。通过对MNIST和CIFAR数据集进行的广泛实验来证实理论结果,我们注意到,对于易于分类的类别,经过几次伪标记的迭代,Gen-Error会改善,但此后饱和,并且更难难以实现。区分类别,正则化改善了概括性能。
translated by 谷歌翻译
本文统一了设计,简化了风险厌恶汤普森采样算法的分析,为多武装爆炸问题的常规风险功能为$ \ rho $。在大偏差理论中使用收缩原理,我们证明了这些连续风险功能的新型浓度界限。与现有的作品相比,所界限取决于样本本身,我们的范围仅取决于样本的数量。这使我们能够以追求的分析挑战,并统一现有汤普森采样的算法的遗憾范围。我们展示了广泛的风险功能以及它们的“漂亮”功能满足连续性条件。使用我们新开发的分析工具包,我们分析了算法$ \ rho $ -mts(对于多项式发行版)和$ \ rho $ -npts(对于有界分布),并证明他们承认渐近最佳的风险厌恶算法的最佳遗憾平均方差,CVAR等普遍存在风险措施,以及一系列新综合的风险措施。数值模拟表明,我们的界限是相当严格的VIS-\“A-VIS算法无关的下限。
translated by 谷歌翻译